Although recent deep learning-based calibration methods can predict extrinsic and intrinsic camera parameters from a single image, their generalization remains limited by the number and distribution of training data samples. The huge computational and space requirement prevents convolutional neural networks (CNNs) from being implemented in resource-constrained environments. This challenge motivated us to learn a CNN gradually, by training new data while maintaining performance on previously learned data. Our approach builds upon a CNN architecture to automatically estimate camera parameters (focal length, pitch, and roll) using different incremental learning strategies to preserve knowledge when updating the network for new data distributions. Precisely, we adapt four common incremental learning, namely: LwF , iCaRL, LU CIR, and BiC by modifying their loss functions to our regression problem. We evaluate on two datasets containing 299008 indoor and outdoor images. Experiment results were significant and indicated which method was better for the camera calibration estimation.
translated by 谷歌翻译
在计算机视觉应用中广泛采用深度神经网络引起了对对抗性鲁棒性的重大兴趣。现有的研究表明,专门针对给定模型量身定制的恶意扰动输入(即,对抗性示例)可以成功地转移到另一个受过独立训练的模型中,以引起预测错误。此外,这种对抗性示例的属性归因于数据分布中的预测模式得出的特征。因此,我们有动力调查以下问题:对抗性防御,例如对抗性例子,可以成功地转移到其他受过独立训练的模型中?为此,我们提出了一种基于深度学习的预处理机制,我们将其称为可鲁棒的可转移功能提取器(RTFE)。在研究了理论动机和含义后,我们在实验上表明,我们的方法可以为多个独立训练的分类器提供对抗性的鲁棒性,这些分类器原本是对自适应白盒对手的无效性。此外,我们表明RTFE甚至可以为在不同数据集中独立训练的模型提供单发对手的鲁棒性。
translated by 谷歌翻译
在过去的十年中,基于深度学习的算法在遥感图像分析的不同领域中广泛流行。最近,最初在自然语言处理中引入的基于变形金刚的体系结构遍布计算机视觉领域,在该字段中,自我发挥的机制已被用作替代流行的卷积操作员来捕获长期依赖性。受到计算机视觉的最新进展的启发,遥感社区还见证了对各种任务的视觉变压器的探索。尽管许多调查都集中在计算机视觉中的变压器上,但据我们所知,我们是第一个对基于遥感中变压器的最新进展进行系统评价的人。我们的调查涵盖了60多种基于变形金刚的60多种方法,用于遥感子方面的不同遥感问题:非常高分辨率(VHR),高光谱(HSI)和合成孔径雷达(SAR)图像。我们通过讨论遥感中变压器的不同挑战和开放问题来结束调查。此外,我们打算在遥感论文中频繁更新和维护最新的变压器,及其各自的代码:https://github.com/virobo-15/transformer-in-in-remote-sensing
translated by 谷歌翻译
使用变压器模型,多语言神经机器的翻译一直显示出巨大的成功。部署这些模型是具有挑战性的,因为它们通常需要各种语言的大词汇(词汇)尺寸。这限制了在上一个词汇投影层中预测输出令牌的速度。为了减轻这些挑战,本文提出了一种通过聚类的快速词汇投影方法,该方法可用于GPU上的多语言变压器。首先,我们脱机将词汇搜索空间分为不同的结合群,鉴于解码器输出的隐藏上下文向量,这导致词汇投影的词汇列要小得多。其次,在推理时,提出的方法预测了词汇投影中隐藏上下文向量的簇和候选候选代币。本文还包括对在多语言环境中构建这些群集的不同方式的分析。我们的结果表明,FLOAT16 GPU推断中的端到端速度增长高达25%,同时保持BLEU得分并略有增加记忆成本。所提出的方法将词汇投影步骤加速自身最多2.6倍。我们还进行了广泛的人类评估,以验证所提出的方法保留了原始模型的翻译质量。
translated by 谷歌翻译
面部检测和识别是人工智能系统中最困难,经常使用的任务。这项研究的目的是介绍和比较系统中使用的几种面部检测和识别算法的结果。该系统始于人类的训练图像,然后继续进行测试图像,识别面部,将其与受过训练的面部进行比较,最后使用OPENCV分类器对其进行分类。这项研究将讨论系统中使用的最有效,最成功的策略,这些策略是使用Python,OpenCV和Matplotlib实施的。它也可以用于CCTV的位置,例如公共场所,购物中心和ATM摊位。
translated by 谷歌翻译
协作过滤(CF)是推荐系统的重要方法,广泛应用于我们生命中的大量方面,在线的商业系统。 CF中的一个流行算法是K到最近邻居(KNN)算法,其中使用相似度测量来确定用户的最近邻居,从而量化相对用户/项目对之间的依赖程度。因此,CF方法不仅对相似性度量敏感,但它完全取决于对该措施的选择。虽然Jaccard - 作为CF任务的常用相似度措施之一 - 涉及评级的存在,余弦和皮尔逊等其他数值措施涉及评级的程度。特别说话,Jaccard不是一个主导的措施,但很长时间被证明是改善任何措施的重要因素。因此,在我们不断努力寻找最有效的CF相似性措施,本研究侧重于通过将Jaccard与多种数值措施相结合提出新的相似性度量。综合措施将采取存在和幅度的优点。电影镜头数据集的实验结果表明,综合措施是卓越的表现优于考虑的评估指标的所有单一措施。
translated by 谷歌翻译
提供可靠的连接到蜂窝连接的无人机可以非常具有挑战性;它们的性能高度取决于周围环境的性质,例如地面BSS的密度和高度。另一方面,高层建筑可能阻断来自地面BS的不期望的干扰信号,从而提高了UVS与其服务BS之间的连接。为了解决此类环境中的无人机的连接,本文提出了一种RL算法,以动态优化UAV的高度,因为它在通过环境中移动,目标是提高其经历的吞吐量。所提出的解决方案是使用来自爱尔兰都柏林市中心的两个不同地点的实验获得的测量来评估。在第一场景中,UAV连接到宏小区,而在第二场景中,UAV将在双层移动网络中关联到不同的小单元。结果表明,与基线方法相比,该溶液的吞吐量增加了6%至41%。
translated by 谷歌翻译